簡介
自從1996年以來,該領域進行了多次大規模評測,為信息識別、採集和組織等相關技術提供了新的測試平台。由於話題檢測與跟蹤相對於信息檢索、數據挖掘和信息抽取等自然語言處理技術具有很多共性,並且面向具備突發性和延續性規律的新聞語料,因此逐漸成為當前信息處理領域的研究熱點。
與一般的信息檢索或者信息過濾不同,TDT所關心的話題不是一個大的領域(如美國的對華政策)或者某一類事件(如恐怖活動),而是一個很具體的“事件(Event)”,如美國911事件、江澤民訪美等等。為了區別於語言學上的概念,TDT評測會議對“話題”進行了定義:所謂話題(Topic),就是一個核心事件或活動以及與之直接相關的事件或活動。而一個事件(Event)通常由某些原因、條件引起,發生在特定時間、地點,涉及某些對象(人或物),並可能伴隨某些必然結果。通常情況下,可以簡單地認為話題就是若干對某事件相關報導的集合[1]。“話題檢測與跟蹤”則定義為“在新聞專線(Newswire)和廣播新聞等來源的數據流中自動發現主題並把主題相關的內容聯繫在一起的技術”。例如,“俄克拉荷馬城爆炸案”這個主題包括1995年美國聯邦大樓被炸、悼念儀式、州和美國聯邦政府的一系列調查、對Timothy McVeigh的指控等等。這個定義和其它與話題有關的研究不同,那些研究主要處理信息分類問題,比如任何與爆炸有關的事件。處理分類問題需要專門的分類體系,註解起來效率低而且主觀色彩濃厚。TDT與其它研究不同之處還在於它強調新事件的發現,希望找出不在人們意料之中的或沒有人知道如何去查詢的事件。
TDT是一項綜合的技術,需要比較多的自然語言處理理論和技術作為支撐,因此這些測評對其進行了細化。根據不同的套用需求,TDT評測會議把話題檢測和跟蹤分成五個子任務。
任務
● 報導切分(Story Segmentation)找出所有的報導邊界,把輸入的源數據流分割成各個獨立的報導。
● 話題跟蹤(Story Tracking)給出某話題的一則或多則報導,把後輸入進來的相關報導和該話題聯繫起來。它實際上包括兩步,首先給出一組樣本報導,訓練得到話題模型,然後在後續報導中找出所有討論目標話題的報導。
● 話題檢測(Story Detection)發現以前未知的新話題。
● 首次報導檢測(New Event Detection)在數據流中檢測或發現首次,並且只能是首次討論某個話題的報導。與話題檢測本質相同,區別只在於結果輸出的形式不同。
● 關聯檢測(Link Detection)判斷兩則報導是否討論的是同一個話題。
主要實現方法
構造一個實用化的TDT系統是進行TDT研究的主要目的之一,也是檢驗現有方法優劣的基礎。從參評的數量來看,話題發現和話題跟蹤兩個子任務最受關注。因此我們介紹的實現方法也以這兩個任務為主。總體而言,要實現話題發現與跟蹤功能,需要解決以下主要問題:
⑴話題/報導的模型化
⑵話題-報導相似度的計算
⑶聚類策略
⑷分類策略(閾值選擇策略)
[1]顯然,對這種相關性必須做一個界定,不能任由集合無限擴大。為此,TDT會議組織者在構造TDT語料時,對挑選出來的每個話題都定義了相關性判定規則。